Data statements for natural language processing

Data Statements for Natural language processing: Toward Mitigating System Bias and Enabling Better Science

Abstract

NLP 연구 및 개발을 위한 ‘데이터 내역’을 제안. 이를 통해 NLP 분야와 관련된 편향 및 배제 문제를 개선할 수 있을 것으로 기대함:

Introduction

기술이 널리 도입되면 사회에 광범위한 영향을 미치기 때문에 다양한 문제를 야기할 수 있음. 이 논문은 NLP에 집중.

  • 특정 인구집단에 대해서는 잘 작동하지 않는 문제. 예: 아동 또는 특정 사투리를 쓰는 집단.
  • 사회에 존재하는 편향을 강화하는 문제. 예: IT 분야에 이미 남성이 많기 때문에, 이력서 평가 시스템이 IT 분야 여성 지원자의 역량을 과소추정.

과학적 문제와 윤리적 문제가 모두 존재:

  • 과학적 측면: 연구의 일반화 가능성
  • 윤리적 측면: 관심이 고조되고 있으나 아직 충분히 잘 정리되지 않은 상황.

이러한 문제를 개선하기 위해 연구자/개발자들이 자신의 연구결과 또는 제품에 대한 “데이터 내역”을 만들기를 제안함.

데이터 내역이란?

  • 연구 또는 제품에 사용된 데이터의 특징에 대한 상세한 정보를 담은 문서.
  • 심리학/의학 분야에서는 연구에 참여한 집단에 대한 표준 정보를 명시하는 관례가 있는데 이와 유사.

Definitions

(각종 용어 정의. 생략)

Why Does NLP Need Data Statements?

최근 여러 연구에 따르면 학습 데이터셋의 제약으로 인해 NLP 시스템에 여러 윤리적 문제가 발생하고 있음. 예: 벡터 임베딩을 하는 경우 젠더에 대한 문화적 편견이 그대로 반영됨.

학습 데이터의 모든 편향을 제거하는 것을 불가능. 따라서 데이터의 특성을 설명하는 부가적인 정보가 필요함.

Current Practice and Challenges

Open Language Archives Community, Text Encoding Initiative 등 몇몇 단체에서 언어 데이터를 모으고 메타데이터를 정리하고 있으나 구체적인 정보는 부족.

따라서 모든 NLP 관련 연구, NLP를 활용하는 모든 시스템이 데이터 내역을 함께 제공할 것을 제안.

Proposed Data Statement Schema

데이터 내역의 형식을 제안.

긴 형식:

  • 데이터 큐레이션의 목적
  • 언어 다양성. 예: en-US + 팔로알토 지역
  • 화자 인구통계정보. 나이, 젠더, 인종, 모국어, 사회경제적 지위, 발화 장애 여부 등.
  • 어노테이션 작업을 한 사람의 인구통계정보.
  • 발화 상황: 시간과 장소, 구어/수어/문어, 의도된 청취자
  • 텍스트 특성: 장르와 주제, 텍스트의 구조적 특성(?)
  • 녹음 품질: 녹음된 발화인 경우, 녹음 장치의 성능, 녹음 당시의 상황 등
  • 기타: 데이터 사용에 영향을 줄 것으로 보이는 기타 정보들
  • 출처: 이미 있는 데이터를 활용하여 만들어진 데이터인 경우 원본 출처

짧은 형식:

  • 60-100글자 정도의 요약. 반드시 ‘긴 형식’ 문서에 대한 링크를 담고 있어야 함.

Case Studies

“트위터 혐오 발언 데이터셋” 등에 대한 데이터 내역 예시 (생략)

Related Work

의학 분야:

  • CONSORT(CONsolidated Standards of Reporting Trials) 가이드라인이 널리 쓰임.
  • 1993년에 개발이 시작되었고, 2010년에 최신 개정판이 나왔으며, 70여개의 의학저널에서 권장.

AI:

Algorithmic Impact Statements:

  • Ben Shneiderman 2016, AI Now Institute 2018 등이 “환경 영향 평가서environmental impact statements”와 유사하게 “알고리즘 영향 평가서algorithmic impact statements”가 필요하다고 주장.

Recommendations for Implementation

데이터 내역을 효율적으로 작성하기 위한 방법들 (생략)

Conclusion and Future Work

NLP 기술에서의 배제와 편향 문제를 개선하기 위해, NLP 시스템과 관련된 모든 출판물과 문서에 데이터 내역을 담을 것을 제안.

단기적 영향: 데이터가 세상의(그리고 이 시스템에 영향받는 사람들의) 어떤 측면을 대표할 수 있고 대표할 수 없는지 드러내게 됨

장기적 영향: 배제와 편향 문제를 직접적으로 다루는 연구를 촉진하여 더 재표성있는 데이터셋 개발을 장려할 것.

분야별 영향:

  • 학계: 연구 결과의 일반화 가능성, 재현 가능성 등에 대해 더 정교한 주장을 할 수 있게 됨
  • 업계: 대중적 망신을 피하고 사람들이 더 잘 사용할 수 있는 제품을 만들 수 있게 됨

2024 © ak